VAE

VAEs简介

变分自编码器(Variational auto-encoder,VAE)是一类重要的生成模型(generative
model),它于2013年由Diederik P.Kingma和Max Welling提出[1]。2016年Carl
Doersch写了一篇VAEs的tutorial[2],对VAEs做了更详细的介绍,比文献[1]更易懂。这篇读书笔记基于文献[1]。

除了VAEs,还有一类重要的生成模型GANs(对GANs感兴趣可以去我的微信公众号看介绍文章:学术兴趣小组)。

我们来看一下VAE是怎样设计的。

上图是VAE的图模型。我们能观测到的数据是 $\displaystyle \text{x}$ ,而 $\displaystyle \text{x}$
由隐变量 $\displaystyle \text{z}$ 产生,由 $\displaystyle \text{z}\rightarrow
\text{x}$ 是生成模型 $\displaystyle p_{\theta}(\text{x}|\text{z})$ ,从自编码器(auto-
encoder)的角度来看,就是解码器;而由 $\displaystyle \text{x}\rightarrow \text{z}$
是识别模型(recognition model) $\displaystyle q_{\phi}(\text{z}|\text{x})$
,类似于自编码器的编码器。

VAEs现在广泛地用于生成图像,当生成模型 $\displaystyle p_{\theta}(\text{x}|\text{z})$
训练好了以后,我们就可以用它来生成图像了。与GANs不同的是,我们是知道图像的密度函数(PDF)的(或者说,是我们设定的),而GANs我们并不知道图像的分布。

VAEs模型的理论推导

以下的推导参考了文献[1]和[3],文献[3]是变分推理的课件。

首先,假定所有的数据都是独立同分布的(i.i.d),两个观测不会相互影响。我们要对生成模型 $\displaystyle
p_{\theta}(\text{x}|\text{z})$ 做参数估计,利用对数最大似然法,就是要最大化下面的对数似然函数:

$\displaystyle \log
p_{\theta}(\text{x}^{(1)},\text{x}^{(2)},\cdots,\text{x}^{(N)})=\sum_{i=1}^N
\log p_{\theta}(\text{x}^{(i)})$

VAEs用识别模型 $\displaystyle q_{\phi}(\text{z}|\text{x}^{(i)})$ 去逼近真实的后验概率
$\displaystyle p_{\theta}(\text{z}|\text{x}^{(i)})$ ,衡量两个分布的相似程度,我们一般采用KL散度,即

$\displaystyle \begin{align}
KL(q_{\phi}(\text{z}|\text{x}^{(i)})||p_{\theta}(\text{z}|\text{x}^{(i)}))&=\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})}
\log
\frac{q_{\phi}(\text{z}|\text{x}^{(i)})}{p_{\theta}(\text{z}|\text{x}^{(i)})}\
&=\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log
\frac{q_{\phi}(\text{z}|\text{x}^{(i)})p_{\theta}(\text{x}^{(i)})}{p_{\theta}(\text{z}|\text{x}^{(i)})p_{\theta}(\text{x}^{(i)})}\
&=\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log
\frac{q_{\phi}(\text{z}|\text{x}^{(i)})}{p_{\theta}(\text{z},\text{x}^{(i)})}+\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})}
\log p_{\theta}(\text{x}^{(i)})\
&=\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log
\frac{q_{\phi}(\text{z}|\text{x}^{(i)})}{p_{\theta}(\text{z},\text{x}^{(i)})}+\log
p_{\theta}(\text{x}^{(i)}) \end{align}$

于是

$\displaystyle \log
p_{\theta}(\text{x}^{(i)})=KL(q_{\phi}(\text{z}|\text{x}^{(i)}),
p_{\theta}(\text{z}|\text{x}^{(i)}))+\mathcal{L}(\theta,\phi;\text{x}^{(i)})$

其中,

$\displaystyle \begin{align} \mathcal{L}(\theta,\phi;\text{x}^{(i)})& =
-\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log
\frac{q_{\phi}(\text{z}|\text{x}^{(i)})}{p_{\theta}(\text{z},\text{x}^{(i)})}\
&=\mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log p_{\theta}(\text{z},
\text{x}^{(i)}) - \mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log
q_{\phi}(\text{z}|\text{x}^{(i)}) \end{align}$

由于KL散度非负,当两个分布一致时(允许在一个零测集上不一致),KL散度为0。于是 $\displaystyle \log
p_{\theta}(\text{x}^{(i)}) \geq \mathcal{L}(\theta,\phi;\text{x}^{(i)})$ 。
$\displaystyle \mathcal{L}(\theta,\phi;\text{x}^{(i)})$ 称为对数似然函数的变分下界。

直接优化 $\displaystyle \log p_{\theta}(\text{x}^{(i)})$ 是不可行的,因此一般转而优化它的下界
$\displaystyle \mathcal{L}(\theta,\phi;\text{x}^{(i)})$ 。对应的,优化对数似然函数转化为优化
$\displaystyle \mathcal{L}(\theta,\phi;\text{X})=\sum_{i=1}^N
\mathcal{L}(\theta,\phi;\text{x}^{(i)})$ 。

作者指出, $\displaystyle \mathcal{L}(\theta,\phi;\text{x}^{(i)})$ 对
$\displaystyle \phi$ 的梯度方差很大,不适于用于数值计算。为了解决这个问题,假定识别模型 $\displaystyle
q_{\phi}(\text{z}|\text{x})$ 可以写成可微函数 $\displaystyle g_{\phi}(\epsilon,
\text{x})$ ,其中, $\displaystyle \epsilon$ 为噪声, $\displaystyle \epsilon \sim
p(\epsilon)$ 。于是, $\displaystyle \mathcal{L}(\theta,\phi;\text{x}^{(i)})$
可以做如下估计(利用蒙特卡罗方法估计期望):

$\displaystyle
\mathcal{\tilde{L}}^A(\theta,\phi;\text{x}^{(i)})=\frac{1}{L}\sum_{l=1}^L
[\log p_{\theta}(\text{x}^{(i)}, \text{z}^{(i,l)}) - \log
q_{\phi}(\text{z}^{(i,l)}|\text{x}^{(i)})]$

其中, $\displaystyle \text{z}^{(i,l)}=g_{\phi}(\epsilon^{(i,l)},
\text{x}^{(i)}), \quad \epsilon^{(i,l)} \sim p(\epsilon)$ 。

此外, $\displaystyle \mathcal{L}(\theta,\phi;\text{x}^{(i)})$ 还可以改写为

$\displaystyle
\mathcal{L}(\theta,\phi;\text{x}^{(i)})=-KL(q_{\phi}(\text{z}|\text{x}^{(i)})||p_{\theta}(\text{z}))

  • \mathbb{E}{q{\phi}(\text{z}|\text{x}^{(i)})} \log
    p_{\theta}(\text{x}^{(i)}|\text{z})$

由此可以得到另外一个估计

$\displaystyle \mathcal{\tilde{L}}^B(\theta, \phi;
\text{x}^{(i)})=-KL(q_{\phi}(\text{z}|\text{x}^{(i)})||p_{\theta}(\text{z}))
+\frac{1}{L} \sum_{l=1}^L \log p_{\theta}(\text{x}^{(i)}|\text{z}^{(i,l)})$

其中, $\displaystyle \text{z}^{(i,l)}=g_{\phi}(\epsilon^{(i,l)},
\text{x}^{(i)}), \quad \epsilon^{(i,l)} \sim p(\epsilon)$ 。

实际试验时,如果样本量 $\displaystyle N$
很大,我们一般采用minibatch的方法进行学习,对数似然函数的下界可以通过minibatch来估计:

$\displaystyle \mathcal{L}(\theta,\phi;\text{X})\simeq \mathcal{\tilde{L}}^M
(\theta,\phi;\text{X}^M)=\frac{N}{M}\sum_{i=1}^M
\mathcal{\tilde{L}}(\theta,\phi;\text{x}^{(i)})$

可以看到,为了计算 $\displaystyle \mathcal{L}(\theta,\phi;\text{X})$ ,我们用了两层估计。当
$\displaystyle M$ 较大时,内层估计可以由外层估计来完成,也就是说,取 $\displaystyle L=1$
即可。实际计算中,作者取 $\displaystyle M=100,L=1$ 。由上述推导得到AEVB算法:

VAEs模型

上面给的AEVB算法是一个算法框架,只有给定了 $\displaystyle \epsilon,
p_{\theta}(\text{x}|\text{z}), q_{\phi}(\text{z}|\text{x}),
p_{\theta}(\text{z})$ 分布的形式以及 $\displaystyle g_{\phi}(\epsilon, \text{x})$
,我们才能启动算法。实际应用中,作者取

$\displaystyle \begin{align} p(\epsilon) &= \mathcal{N}(\epsilon;
0,\text{I})\\ q_{\phi}(\text{z}|\text{x}^{(i)}) &= \mathcal{N}(\text{z};
{\mu}^{(i)}, {\sigma}^{2(i)}\text{I})\
p_{\theta}(\text{z})&=\mathcal{N}(\text{z}; 0,\text{I})\
g_{\phi}(\epsilon^{(l)}, \text{x}^{(i)}) &= {\mu}^{(i)}+{\sigma}^{(i)}\odot
\epsilon^{(l)} \end{align}$

而 $\displaystyle p_{\theta}(\text{x}|\text{z})$
根据样本是实值还是二元数据进行选择,若样本为二元数据,则选择

$\displaystyle p_{\theta}(x_i|\text{z})=\mathcal{B}(x_i;1,y_i)=y_i^{x_i}\cdot
(1-y_i)^{1-x_i}, \quad i=1,2,\cdots,D_{\text x}(D_{\text x}=\dim(\text{x}))$

若样本是实值数据,则选择

$\displaystyle p_{\theta}(\text{x}^{(i)}|\text{z})=\mathcal{N}(\text{x}^{(i)};
\mu’^{(i)},\sigma’^{2(i)}\text{I})$

实验中,作者选择多层感知器(MLP)对 $\displaystyle p_{\theta}(\text{x}|\text{z}),
q_{\phi}(\text{z}|\text{x})$ 进行拟合,具体来说,

对 $\displaystyle p_{\theta}(\text{x}|\text{z})$ ,参数为 $\displaystyle
\theta=(\mu’, \sigma’)$ ,若样本为二元数据,则

$\displaystyle \begin{align} \log p(\text{x}|\text{z}) &= \sum_{i=1}^{D_\text
x} x_i \log y_i + (1-x_i)\cdot \log (1-y_i)\\ \text{y}&=\text{sigmoid}(\text
W_2 \tanh(\text W_1\text{z} + \text b_1) + \text b_2) \end{align}$

若样本为实值数据,则

$\displaystyle \begin{align} \mu’ &= \text{W}_4\text{h}’+\text{b}_4 \
\sigma’ &= \text W_5\text{h}’ + \text{b}_5\\ \text{h}’ &= \tanh(\text W_3
\text{z} + \text b_3) \end{align}$

对 $\displaystyle q_{\phi}(\text{z}|\text{x})$ ,参数为 $\displaystyle
\phi=(\mu, \sigma)$ ,

$\displaystyle \begin{align} \mu &= \text{W}_7\text{h}+\text{b}_7 \\ \sigma
&= \text W_8\text{h} + \text{b}_8\\ \text{h} &= \tanh(\text W_6 \text{x} +
\text b_6) \end{align}$

根据以上假设的分布,不难计算

$\displaystyle \mathcal{L}(\theta,\phi;\text{x}^{(i)}) \simeq
\frac{1}{2}\sum_{j=1}^{D_\text z}(1 + \log ((\sigma_j^{(i)})^2) -
(\mu_j^{(i)})^2 - (\sigma_j^{(i)})^2) + \frac{1}{L}\sum_{l=1}^L \log
p_{\theta}(\text{x}^{(i)} | \text{z}^{(i,l)})$

其中, $\displaystyle \text{z}^{(i,l)}=\mu^{(i)}+\sigma^{(i)}
\odot\epsilon^{(l)}, \quad \epsilon^{(l)} \sim p(\epsilon)$ 。

###loss的推导:
$D_{K L}\left(q_{\phi}(z \mid x)|| p_{\theta}(z)\right), p_{\theta}(z) \sim \mathrm{N}(0,1),$ 下面推导过程将 $\left(q_{\phi}(z \mid x) \text { 简化为 } q\right.$
$D_{K L}\left(q_{\phi}(z \mid x)|| p_{\theta}(z)\right)=\int q(z) \log \frac{q(z)}{p(z)} d z$
$=\int q(z)((\log q(z)-\log p(z)) d z$
$=\int q(z)\left(\log \left(\frac{1}{\sqrt{2 \pi \sigma^{2}}} e^{\frac{(z-\mu)^{2}}{2 \sigma^{2}}}\right)-\log \left(\frac{1}{\sqrt{2 \pi}} e^{\frac{(z)^{2}}{2}}\right)\right.$
$=\int q(z)\left(\log \frac{1}{\sigma}\right) d z+\int \frac{z^{2}}{2} q(z) d z-\int \frac{(z-\mu)^{2}}{2 \sigma^{2}} q(z)$
观察第一项就是常数和概率密度积分求和 观察最后一项,其实就是求方差,因此可以很快得到答案 $\frac{1}{2}$
$=\left(\log \frac{1}{\sigma}\right)+\int \frac{1}{2}(z-\mu+\mu)^{2} q(z) d z-\frac{1}{2}$
$=\left(\log \frac{1}{\sigma}\right)+\frac{1}{2}\left(\int(z-\mu)^{2} q(z) d z+\int \mu^{2} q(z) d z+2 \int(z-\mu)(\mu) d z\right)-\frac{1}{2}$
观察最后一项积分项,是求期望的公式,因此结果为0
综上可以得到结果 $D_{K L}\left(q_{\phi}(z \mid x)|| p_{\theta}(z)\right)=\left(\log \frac{1}{\sigma}\right)+\frac{\sigma^{2}+\mu^{2}}{2}-\frac{1}{2}$
另一项 $E_{z}\left[\log \left(p_{\theta}(x \mid z)\right)\right],$ 是关于x的后验概率的对数似然,在VAE 中并不对decoder做太强的假设,一般通过一个神经网络来得到正态分 布的均值和方差,因此这一项不能通过解析求出,所以采用采样的方式: $E_{z}\left[\log \left(p_{\theta}(x \mid z)\right)\right]=\frac{1}{L} \sum_{j=1}^{L} \log p_{\theta}\left(x^{i} \mid z^{j}\right)$

++++++++++++++++++++++++++++++++++++++++++++++

最后,我们从auto-encoder的角度来理解VAE,下图给出了VAE训练的时候的网络结构(以实值样本为例, 注意下面两个图中的
$\displaystyle \epsilon$ 节点并不是bias!而是噪声变量,它的维数与 ** $\displaystyle \text z$
**相同。
):

训练好了以后,生成样本采用下面的网络结构:

VAE实验效果

作者在Frey
face数据集和MNIST数据集上进行实验,实验得到的数据流形分布如下图所示,可以看出,VAE能够捕捉到图像的结构变化(倾斜角度、圈的位置、形状变化、表情变化等)。这也是VAE的一个好处,它有显式的分布,能够容易地可视化图像的分布。GANs虽然不具有显式的图像分布,但是可以通过对隐变量的插值变化来可视化图像的分布(参见
DCGAN
)。

VAE在不同维数的隐变量空间( $\displaystyle \text z$ )下生成手写数字的效果如下:

可以看出,采用MLP也能产生效果还不错的数字,有趣的是,隐变量维数较低时,生成的图像笔画清晰,但是带有较大的噪声(模糊);隐变量维数高时,生成的数字部分笔画不清晰,但噪声小。

代码

VAEs网上的代码很多,下面给了三个基于原始论文[1]的代码,作者修改了激活函数和优化方法以取得更好的收敛性。第四个代码是caffe版本,基于文献[2]。

Tensorflow版本: y0ast/VAE-TensorFlow: Implementation of a Variational Auto-
Encoder in TensorFlow

Torch版本: y0ast/VAE-Torch: Implementation of Variational Auto-Encoder in
Torch7

Theano版本: [ y0ast/Variational-Autoencoder: Implementation of a variational
Auto-encoder
](https://link.zhihu.com/?target=https%3A//github.com/y0ast/Variational-
Autoencoder)

Caffe版本: Tutorial on Variational Autoencoders

参考文献

[1]. Kingma D P, Welling M. Auto-Encoding Variational Bayes[J]. stat, 2014,
1050: 10.

[2]. DOERSCH C. Tutorial on Variational Autoencoders[J]. stat, 2016, 1050: 13.

[3]. Blei, David M., “Variational Inference.” Lecture from Princeton,
[ https://www. cs.princeton.edu/course
s/archive/fall11/cos597C/lectures/variational-inference-i.pdf
](https://link.zhihu.com/?target=https%3A//www.cs.princeton.edu/courses/archive/fall11/cos597C/lectures/variational-
inference-i.pdf) .